!shred -u setup_colab.py
!shred -u setup_colab_general.py
!wget -q "https://github.com/jpcano1/python_utils/raw/main/setup_colab_general.py" -O setup_colab_general.py
!wget -q "https://github.com/jpcano1/python_utils/raw/main/MINE_4101/setup_colab.py" -O setup_colab.py
!pip install -q https://github.com/pandas-profiling/pandas-profiling/archive/master.zip
import setup_colab as setup
import pandas as pd
import numpy as np
import pandas_profiling as pp
import matplotlib.pyplot as plt
plt.style.use("seaborn-deep")
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import LabelEncoder, LabelBinarizer
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.metrics import recall_score, precision_score, confusion_matrix
from sklearn.utils import resample
df = pd.read_excel('data_parcial.xlsx')
df.head()
df.shape
Se encontraron variables altamente correlacionadas entre sí por lo que se decide optar por dejar solo una variable entre estas correlacionadas de manera que se reduzca la complejidad del modelo, para escoger esta variable se tuvo en cuenta la cantidad de valores nulos con los que contaba. Asimismo, se elimina la columna CUENTA_TDC que indica el número de cuenta TDC lo cual viene siendo como un identificador. Se encontró que la columna HABITO_PAGO_TDC cuenta con anomalías en pocas, por lo que se decidió removerlos en lugar de dejarlos.
pp.ProfileReport(df)